Tre sono i criteri fondamentali per l'imputazione delle variabili qualitative
alla base della metodologia proposta da Fellegi e Holt:
(quanto segue è una sintesi dell'articolo "A Systematic Approach
to Automatic Edit and Imputation" di I.Fellegi e D.Holt pubblicato sul
Journal of the American Statistical Association - marzo 1976)
1. in ogni record i dati devono soddisfare tutte le regole di validità
e incompatibilità, cambiando il meno possibile il valore dei campi;
2. le regole di imputazione devono essere derivate dalle regole di
controllo, senza esplicita specificazione;
3. le distribuzioni di frequenza marginali e congiunte devono essere
mantenute il più possibile.
Edit in forma normale
Distinguiamo gli edit logici, riguardanti le variabili qualitative,
dagli edit aritmetici, riguardanti le variabili quantitative.
DEFINIZIONE: un edit logico esprime una condizione di
inaccettabilità su una data combinazione di valori di due o più
variabili
Un edit può essere formalizzato come l'applicazione di una funzione
f a sottoinsiemi dei domini di n variabili:
![]()
dove:
: sottoinsieme del dominio
della variabile i-esima
f : funzione logica che connette i vari
mediante gli operatori logici di intersezione (Ç
) e unione (È )
Un record a è errato se:
Applicando ripetutamente alla f la legge distributiva otteniamo:
=
(
Ç
Ç
... Ç
) È (
Ç
Ç
... Ç
) È ... È
(
Ç
Ç
... Ç
)
Possiamo dire che un record è errato se appartiene ad almeno uno dei termini a secondo membro. Definiamo come "edit in forma normale" ognuno di tali termini.
DEFINIZIONE: un edit in forma normale è un edit logico in cui l'unico operatore ammesso è quello di intersezione
In simboli:
Ogni edit logico, di qualsiasi forma, può sempre essere tradotto
in una serie di edit in forma normale. Consideriamo, ad esempio, la seguente
regola (di compatibilità):
"Se una persona ha età inferiore a 16 anni, oppure frequenta
una scuola elementare, allora non può essere capo-famiglia, ed il
suo stato civile deve essere celibe o nubile"
Questa regola può essere convertita in una serie di edit in
forma
normale attraverso i seguenti passi:
1. formalizzazione:
2. traduzione in regola di incompatibilità:
3. semplificazione:
4. applicazione della legge distributiva:
I quattro termini nell'ultima espressione sono altrettanti edit in forma normale.
L'insieme completo degli edit
DEFINIZIONE: gli edit in forma normale specificati direttamente dallo statistico sono detti edit espliciti.
Un record che non attiva alcun edit esplicito si dice corretto, e non
necessita di alcuna modifica. Al contrario, un record che attiva almeno
un edit esplicito si dice errato, e necessita della modifica di almeno
una variabile.
Mentre gli edit espliciti sono necessari e sufficienti per determinare
la correttezza di un record, essi non sono sufficienti per una sua ottimale
correzione.
DEFINIZIONE: chiamiamo edit implicito un edit logicamente contenuto negli edit espliciti.
La funzione degli edit impliciti, considerati congiuntamente con gli edit espliciti, è quella di permettere la correzione ottimale di un record errato.
DEFINIZIONE: l'insieme completo degli edit è dato dall'unione degli edit espliciti e di quelli impliciti.
Per eseguire in modo ottimale il passo di scelta delle variabili da imputare, e di determinazione del range di valori imputabili, è necessario preventivamente generare l'insieme completo di edit.
Consideriamo il seguente esempio.
Supponiamo che un record contenga tre variabili, di cui siano definiti
i seguenti domini:
| VARIABILI | DOMINI |
| ETA' | 0-14, 15-99 |
| STATO CIVILE (STACIV) | celibe, coniugato, separato,divorziato,vedovo |
| RELAZIONE COL CAPO FAMIGLIA (RELCF) | capofamiglia, coniuge, altro |
Siano stati definiti i seguenti edit in forma normale espliciti, esprimenti condizioni di incompatibilità:
I. (ETA' = 0-14) Ç (STACIV = coniugato,
separato,divorziato,vedovo)
II. (STACIV = celibe, separato, divorziato, vedovo) Ç
(RELCF = coniuge)
Possiamo riscriverli come condizioni di compatibilità nel seguente modo:
(ETA' = 0-14) ® (STACIV = celibe)
(STACIV = celibe, separato, divorziato, vedovo) ®
(RELCF ¹ coniuge)
Poiché la conseguenza della prima implicazione è contenuta nella premessa della seconda, possiamo derivare che:
(ETA' = 0-14) ® (RELCF ¹ coniuge)
relazione che, opportunamente ritradotta in forma normale, diventa:
III. (ETA' = 0-14) Ç (RELCF = coniuge)
Questo terzo edit era implicitamente contenuto nei primi due.
Supponiamo ora di considerare il seguente record:
(ETA' = 0-14) Ç (STACIV = coniugato) Ç (RELCF = coniuge)
Questo record attiva gli edit I e III.
Per correggere il record, ricerchiamo l'insieme minimo di variabili che copra tutti gli edit attivati (espliciti e impliciti) dal record in questione. Nel nostro caso verifichiamo che la variabile ETA' è presente sia nel primo che nel terzo edit attivato. Per disattivare tali edit è sufficiente assegnare a ETA' un valore interno all'intersezione dei complementi dei valori che compaiono negli edit attivati o attivabili:
(Ø 0-14) Ç (Ø 0-14) = 15-99
Assegnando il valore 15-99 alla variabile ETA', il record può dirsi corretto, in quanto non attiva alcun edit: nel far ciò abbiamo tenuto conto del principio del minimo cambiamento, in quanto abbiamo modificato una sola variabile.
Se in questo processo di ricerca dell'insieme minimale di variabili da imputare non avessimo tenuto conto dell'edit implicito, avremmo considerato il solo edit I: per disattivarlo, avremmo potuto scegliere di imputare sia ETA' che STACIV. Se avessimo scelto STACIV, che compare anche nell'edit II, avremmo constatato che l'intersezione del complemento dei relativi valori è l'insieme vuoto Æ :
Ø (coniugato, separato, divorziato,
vedovo) Ç Ø
(celibe, separato, divorziato, vedovo) =
= celibe Ç coniugato = Æ
L'impossibilità di trovare dei valori imputabili a STACIV tali da correggere il record deriva dal fatto che STACIV non è contenuto nell'edit III, implicito, attivato dai valori delle variabili ETA' e RELCF. La conseguenza di carattere generale è che la non considerazione degli edit impliciti non permette di definire sempre insiemi minimi di variabili da imputare che siano in grado di riportare il record in una situazione di correttezza.
LEMMA: dati s edit ![]()
e n variabili, per ogni arbitraria variabile i, un edit
si dice generato dagli s edit se e solo se

In altri termini, fissata una variabile i (detta generante),
il corrispondente
sarà
ottenuto come unione degli
,
mentre ogni altro
sarà
ottenuto come intersezione degli
.
DEFINIZIONE: Un edit generato si dice edit implicito essenzialmente nuovo se e solo se:
1.
coincide col dominio della variabile i;
2. ogni
è non
vuoto ed è un sottoinsieme proprio del dominio della variabile i;
Consideriamo il seguente esempio. Siano dati gli edit:
I. (ETA' = 0-14) Ç (RELCF = qualsiasi)
Ç
(STACIV ¹ celibe)
II. (ETA'=qualsiasi) Ç (RELCF = coniuge)
Ç
(STACIV = celibe, separato, divorziato, vedovo)
Se fissiamo ETA' come variabile generante otteniamo:
(ETA'=qualsiasi) Ç (RELCF = coniuge) Ç (STACIV = separato, divorziato, vedovo)
che è ridondante rispetto al secondo edit.
Fissando invece RELCF otteniamo:
(ETA'=0-14) Ç (RELCF = qualsiasi) Ç (STACIV = separato, divorziato, vedovo)
che è ridondante rispetto al primo edit.
Infine, scegliendo STACIV come variabile generante:
(ETA'=0-14) Ç (RELCF = coniuge) Ç (STACIV = qualsiasi)
che è un edit implicito essenzialmente nuovo.
DEFINIZIONE : Un edit generato da due o più edit tra loro contraddittori (inconsistenti) è detto edit degenere
Consideriamo il seguente esempio:
I. (ETA' = 0-14) Ç (STACIV ¹
celibe)
II. (ETA' = 15-99) Ç (STACIV ¹
celibe)
Assumendo ETA' come campo generante, otteniamo l'edit esplicito
III. (ETA' = qualsiasi valore) Ç (STACIV ¹ celibe) = (STACIV ¹ celibe)
che ci dice che sono errati tutti i valori di STACIV diversi da celibe, il che chiaramente contraddice la definizione del dominio della variabile STACIV. L'edit III è un edit degenere, ed in quanto tale può essere generato solo da edit tra loro contraddittori.
I seguenti teoremi e corollari assicurano che, avendo a disposizione
l'insieme completo di edit, un qualsiasi record errato è sempre
correggibile, e lo è in modo ottimale.
Sia W l'insieme completo di edit, e sia
un
sottoinsieme tale da coinvolgere le prime k variabili (con l'esclusione,
quindi, di tutti gli edit in cui compaiano le variabili k+1, k+2, ... ,
n).
TEOREMA 1:
se
gli
sono possibili valori
per le prime k-1 variabili, e se questi valori soddisfano tutti gli edit
in
, allora esiste un qualche
valore
tale da soddisfare
tutti gli edit in
.
La ripetuta applicazione del teorema 1 permette
di conseguire il seguente
COROLLARIO 1: se un record ha n variabili, di cui le prime k-1
hanno valori
(i=1,2,...,k-1)
tali che tutti gli edit in
sono soddisfatti, allora esistono valori
(i=k,k+1,...,n) tali da soddisfare tutti gli edit in W
.
Ed inoltre:
COROLLARIO 2: se un record ha n variabili, di cui un sottoinsieme
s ha la proprietà che almeno uno dei valori
(iÎ s) compare in ogni edit attivato dal
record, allora esistono dei valori
(iÎ s) tali che, assieme agli
(iÏ
s) fanno si che il record soddisfi tutti gli edit.
Metodi di imputazione
La metodologia prevede, per ogni record errato:
1. l'identificazione dell'insieme minimo di variabili
da modificare;
2. per ogni variabile rientrante nell'insieme minimo,
la determinazione dell'insieme di valori attribuibili, e imputazione
di uno tra questi.
Per quanto riguarda il punto 1, ricordiamo che l'insieme minimo di variabili da imputare è costituito da quell'insieme di variabili che "coprono" tutti gli edit attivati dal record e che risulta essere di dimensione minima.
Per quanto concerne il punto 2, sono proposti due metodi, entrambi di tipo hot deck, consistenti nell'imputare in una variabile del record corrente (ricevente) il valore della stessa variabile in un record (donatore) scelto tra quelli esatti. I metodi in questione sono:
· metodo dell'imputazione sequenziale;
· metodo dell'imputazione congiunta.
METODO 1: IMPUTAZIONE SEQUENZIALE
Consideriamo un record errato di cui sia già stato identificato un insieme minimo di k variabili da imputare. Il metodo consiste nell'imputare dapprima la k-esima variabile, e poi, sequenzialmente, le variabili k-1,k-2,...,1.
Consideriamo tutti gli M edit in cui
· è presente la variabile k;
· non sono presenti le variabili
1,2,...,k-1.
Tra questi, consideriamo solo gli M' edit in cui non sono presenti gli edit sicuramente disattivati dai valori correnti delle variabili k+1, k+2, ... , n: gli M' edit sono quelli che possono essere attivati o meno in funzione dei valori della sola variabile k. Se vogliamo che il record soddisfi tali edit, il valore da assegnare alla variabile k deve soddisfare la condizione:
![]()
cioè deve appartenere all'insieme intersezione dei complementi dei valori indicati per la variabile k in tutti gli M' edit: tale insieme non è mai vuoto per il teorema 1.
Lo stesso procedimento viene iterato per le variabili k-1, k-2, ...1, fino all'esaurimento dell'insieme minimo di variabili da imputare.
Consideriamo il seguente esempio, con 5 variabili:
| VARIABILI | DOMINI |
| SESSO | maschio, femmina |
| ETA | 0-14,15-16,17-99 |
| STATO CIVILE (STACIV) | celibe, coniugato, separato, divorziato, vedovo |
| RELAZIONE COL CAPOFAMIGLIA (RELCF) | moglie, marito, figlio, altro |
| LIVELLO D'ISTRUZIONE (ISTRUZ) | nessuno,elementare, secondario, post-secondario |
L'insieme (completo) degli edit è il seguente:
: (SESSO=maschio)
Ç
(RELCF=moglie)
: (ETA'=0-14) Ç
(STACIV¹ celibe)
: (STACIV¹
coniugato) Ç (RELCF=moglie,marito)
: (ETA'=0-14) Ç
(RELCF=moglie,marito)
: (ETA'=0-16) Ç
(ISTRUZ=post-secondaria)
Sia dato il seguente record:
| VARIABILE | VALORE |
| SESSO | maschio |
| ETA | 12 |
| STACIV | coniugato |
| RELCF | moglie |
| ISTRUZ | elementare |
Il record attiva gli edit
,
,
.
Nessuna singola variabile "copre" i tre edit. Tre coppie di variabili coprono
gli edit attivati: (SESSO, ETA'), (ETA', RELCF) e (STACIV, RELCF). Supponiamo
di scegliere la coppia (SESSO, ETA'): la dimensione s dell'insieme è
pari a 2.
Sia ETA' la variabile k-esima (k=2). Consideriamo tutti gli edit che contengono ETA' ma non SESSO (la variabile k-1=1):
: (ETA'=0-14) Ç
(STACIV¹ celibe)
: (ETA'=0-14) Ç
(RELCF=moglie,marito)
: (ETA'=0-16)
Ç
(ISTRUZ=post-secondaria)
L'edit
è sempre soddisfatto per qualsiasi valore di ETA' dal momento che
nel record il valore di ISTRUZ è "elementare". Per calcolare i valori
imputabili ad ETA' dobbiamo quindi considerare solo
e
:
Î
Ç
º
Ç
= (15-99)
cercheremo quindi un record donatore con un valore di ETA' compreso tra 15 e 99: supponiamo 22.
Passiamo ora variabile SESSO (k-1=1). Solo l'edit
la contiene, quindi:
Î
º
= femmina
Essendo unico, il valore "femmina" è direttamente imputato alla
variabile SESSO. Il record corretto sarà quindi il seguente:
| VARIABILE | VALORE |
| SESSO | femmina |
| ETA | 22 |
| STACIV | coniugato |
| RELCF | moglie |
| ISTRUZ | elementare |
METODO 2: IMPUTAZIONE CONGIUNTA
Per un dato record errato siano state definite le k variabili da imputare. Si considerino gli M'' edit con le k variabili
(r=1,2,...,M'')
dove
(i=k+1,k+2,...,n).
Sono gli edit in cui sono presenti le k variabili, e dove le variabili
k+1, k+2, ..., n hanno nel record valori interni agli
:
sono cioè gli edit attivabili o meno in funzione dei valori che
si danno alle k variabili.
Si considerino gli insiemi
(i=k+1, k+2, ... ,n)
Se scegliamo un qualsiasi record, tra quelli esatti, i cui valori delle variabili k+1, k+2, ... ,n siano interni agli insiemi così definiti, i valori di tale record nelle variabili 1,2,...,k sono attribuibili in blocco al record errato corrente, in quanto costituiscono una combinazione che sicuramente garantisce che tutti gli M'' edit siano soddisfatti (cioè disattivati). Per tale motivo non c'è alcun bisogno di calcolare l'insieme dei valori attribuibili alle k variabili dell'insieme minimo.
Riprendiamo in considerazione l'esempio visto per l'imputazione sequenziale:
siano ancora SESSO ed ETA' le variabili dell'insieme minimo: queste due
variabili sono presenti negli edit
,
,
ed
. Quest'ultimo è
soddisfatto comunque per il valore di ISTRUZ. Restano:
: (SESSO=maschio) Ç
(RELCF=moglie)
: (ETA'=0-14) Ç
(STACIV¹ celibe)
: (ETA'=0-14) Ç
(RELCF=moglie,marito)
E' questo l'insieme M'' di edit. Si determinano gli insiemi di valori per le variabili k+1, k+2, ..., n, cioè per STACIV (3), RELCF (4) e ISTRUZ (5):
= coniugato, separato, divorziato,
vedovo
= moglie Ç
(moglie, marito) = moglie
= qualsiasi valore
A questo punto, tra i record esatti viene ricercato un donatore che
abbia i valori di STACIV e RELCF interni agli insiemi così determinati,
ed i relativi valori di SESSO ed ETA' vengono attribuiti al record errato
corrente.